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摘要 : 【 目的 ] 构建 社会 化 电子 商务 环境 下 基于 标签 的 个 性 化 商品 推荐 模型 。[ 方法 】 综合 考虑 用 户 使 用 标签 的 


频率 和 时 间 因 素 计算 用 户 的 兴趣 偏好 ; 基于 标签 层次 特 生 


E 和 电子 商务 网 站 中 关于 商品 特征 的 检索 条 件 , 构建 某 


一 主题 商务 社区 中 商品 本 体 ; 利用 本 体 规范 化 用 户 标签 语义 ， 并 对 商品 进行 分 类 ; 寻找 含有 用 户 偏好 的 类 簇 , 计 


算 该 类 簇 中 商品 与 用 户 偏好 商品 的 相似 度 ,将 用 户 未 标注 过 的 商品 与 用 户 偏好 相似 度 高 的 商品 推荐 给 用 户 。 


【 结果 ] 从 翻 东西 网 站 上 随机 选取 200 个 活跃 用 户 关于 热门 商品 的 标注 信息 进行 分 析 , 验证 该 模型 的 有 效 性 .【 局 
限 】 在 计算 用 户 兴 趣 偏好 时 ,只 考虑 用 户 使 用 标签 的 频率 和 时 间 因素 , 未 考虑 其 他 因素 。[ 结论 】 该 模型 相对 于 
利用 标签 进行 协同 过 滤 推 荐 方法 具有 较 优 的 效果 , 计算 时 间 和 空间 复杂 度 更 小 。 
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商品 推荐 的 目标 是 综合 运用 各 种 方法 建立 用 户 兴 
趣 偏好 与 商品 之 间 的 关联 , 并 主动 呈现 给 用 户 。 商 品 
标签 是 用 户 关于 商品 描述 的 元 数据 , 本 文 研究 的 标签 
对 象 是 社会 化 电子 商务 中 用 户 自 由 标注 的 标签 ， 具 有 
可 挖掘 的 重要 信息 : 用 户主 动 标注 物品 的 行为 反映 了 
用 户 的 认 知 模式 和 兴趣 偏好 ; 标签 能 够 反映 物品 特 
征 。 大 量 用 户 为 物品 添加 描述 性 标签 , 高 频 标签 代表 
用 户 对 相同 物品 特征 的 广泛 认同 ; 标签 具有 可 检索 
性 。 作 为 用 户 和 物品 间 的 桥梁 , 标签 系统 一 般 提供 通 
过 标签 检索 物品 的 链接 。 社 会 化 电子 商务 中 由 购物 达 
人 或 普通 用 户 自由 标注 的 标签 居多 , 但 会 出 现 一 词 多 
义 或 一 义 多 词 的 现象 , 使 标签 的 词 表 变 得 庞大 。 由 于 
标签 的 大 众 化 特征 , 同一 社区 的 很 多 标签 都 是 杂乱 无 
章 的 ,标签 与 用 户 、 标 签 与 物品 之 间 可 以 是 多 对 多 的 
关系 ,加 大 标签 组 织 和 利用 的 难度 ， 使 得 标签 相似 度 


了 中 


计算 不 准确 。 因 此 , 作为 一 种 原生 态 的 自然 语言 ,标签 
语义 的 模糊 性 ( 即 一 词 多 义 )、 标 签 形式 的 多 样 性 ( 即 一 
义 多 词 ) 和 标签 结构 的 扁平 化 (缺乏 直接 的 层次 逻辑 关 
系 ), 极 大 地 限制 了 其 在 个 性 化 推荐 中 的 作用 , 在 基于 
标签 的 推荐 系统 中 ,推荐 准确 性 低 , 用 户 体验 差 。 如 何 
减少 标签 元 余 和 上层 义 给 推荐 带 来 的 干扰 、 在 扁平 化 的 
标签 列表 中 发 现 它们 之 间 的 关联 ， 从 而 明确 标签 所 表 
达 的 语义 和 主题 , 是 更 好 地 将 标签 应 用 于 商品 推荐 的 
关键 。 本 文 主要 讨论 社会 化 电子 商务 中 UGC 标签 的 
应 用 , 研究 如 何 利用 本 体 序 化 用 户 标 签 及 商品 标签 ， 
从 中 获取 用 户 偏 好 及 商品 特征 的 主题 描述 , 探讨 如 何 
建立 用 户 偏 好 与 商品 特征 之 间 的 关联 ， 从 而 为 用 户 推 
荐 个 性 化 商品 。 


2 相关 研究 


根据 推荐 算法 的 不 同 , 国内 外 对 基于 标签 的 推荐 
研究 方法 主要 归纳 为 以 下 几 种 。 
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型 的 旅游 用 户 潜 在 需求 挖掘 研究 (项目 编 号 : 14GL05) 的 研究 成 果 之 一 。 


(1) 和 矩阵 分 解 。 将 用 户 、 用 户 标 注 的 资源 以 及 标 
注 的 标签 三 者 之 间 的 三 元 关系 矩阵 分 解 成 两 两 组 合 的 
二 维 矩 阵 ， 先 发 现 两 两 之 间 的 关系 ,再 进行 综合 , 找 
到 三 者 的 对 应 关系 , 这 样 既 可 以 减少 矩阵 计算 复杂 性 ， 
也 能 够 实现 标签 或 资源 的 推荐 "1, 该 方法 是 基于 标签 
的 推荐 系统 中 的 研究 热点 之 一 。 
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合 构成 概念 空间 , 并 具有 层次 结构 ,通过 构建 标签 层 
次 结构 实现 资源 的 个 性 化 推荐 。 田 莹 颖 :认为 用 户 标 
注 行为 存在 兴趣 漂移 的 问题 , 提出 利用 TF-IDF 和 后 
控 词 表 , 给 用 户 最 近 标 注 的 标签 设置 较 高 的 时 间 权 重 ， 
计算 用 户 之 间 的 相似 度 ， 找 出 共同 标注 的 信息 资源 ， 
并 通过 标签 对 用 户 与 资源 进行 匹配 , 将 相 匹 配 的 信息 


(2) 张 量 分 解 。 该 方法 不 进行 三 元 和 矩阵 分 解 ， 而 是 
利用 奇异 值 分 解 的 方法 进行 降 维 ， 然 后 排序 标签 ， 实 
现 标签 推荐 ; 也 可 以 根据 标签 与 资源 的 关联 关系 ， 向 
用 户 推 荐 资源 。 

(3) 聚 类 方法 。 将 标签 、 用 户 和 资源 分 别 进行 聚 
类 ,具体 如 下 : 

人 用 户 聚 类 。 根 据 现 有 标签 或 资源 的 相似 可 以 推测 用 户 
兴趣 的 相似 ， 相 似 用 户 会 有 更 多 潜在 共性 ， 甚 至 可 以 结 成 一 
个 特殊 的 社 群 5。 

人 @) 资 源 聚 类 。 通 过 资源 聚 类 发 现 资源 中 的 “ 睡 美人 ”， 提 
高 资源 推荐 的 覆盖 率 。 

@) 标 签 聚 类 。 这 是 当前 标签 推荐 或 利用 标签 的 资源 推荐 
需要 聚 类 时 的 首选 。 主 要 是 依据 标签 共 现 次 数 聚 类 标签 ， 常 
用 的 聚 类 算法 有 KK-means、Markov 等 , 利用 聚 类 结果 中 标签 
之 间 的 关联 ,计算 对 应 资源 闻 的 相似 度 ， 进行 资源 推荐 1 
Niwa 等 中 在 利用 TEF-IDF 公式 计算 标签 权重 的 基础 上 聚 类 标 
签 ， 据 此 计算 用 户 偏好 资源 与 聚 类 中 标签 对 应 资源 的 相似 
度 ， 实 现 资源 推荐 。Gemmell 等 四 对 标签 进行 层次 聚 类 ， 基 
于 此 构建 用 户 兴趣 模型 。 杨 丹 等 四 通过 标签 聚 类 计算 用 户 与 
标签 的 相似 度 ， 实 现 网 页 推荐 。 

(4) 图 论 方法 。 该 方法 利用 网 络 图 表达 用 户 、 用 
户 标注 的 资源 以 及 标注 的 标签 三 者 之 间 的 关系 ,利用 
社会 网 络 分 析 方 法 进行 用 户 偏好 建 模 ， 从 而 实现 基于 
内 容 的 资源 推荐 或 资源 协同 推荐 "1。 图 论 方法 中 的 
典型 代表 是 Hotho 等 由 研究 出 的 FolkRank 算法 。 该 算 
法 利用 无 向 图 表达 用 户 、 用 户 标注 的 资源 以 及 标注 的 
标签 三 者 之 间 的 关系 。 图 中 的 节点 是 三 者 的 并 集 , 边 
是 两 两 之 间 的 共 现 值 , 通过 对 图 中 各 元 素 的 关联 度 分 
析 , 找 出 重要 标签 并 排序 , 将 重要 标签 对 应 的 资源 推 
荐 给 用 户 。 构 图 只 是 基础 ,重要 的 是 对 图 的 分 析 , 社会 
网 络 分 析 方 法 才 是 图 论 方法 的 核心 , 受到 学 者 们 的 重 
点 关注 。 

此 外 , 还 有 一 些 其 他 的 研究 视角 和 方法 。 如 
Schmitz 等 中 利用 数据 挖掘 技术 中 的 关联 规则 挖掘 研究 
对 象 的 分 类 结构 特征 , 进行 人 员 、 标 签 和 项 目的 推荐 。 
草 高 辉 等 [认为 每 个 标签 可 以 看 成 一 个 概念 , 标签 集 


推荐 给 目标 用 户 。 邓 双 义 将 标签 作为 媒介 ,利用 
WordNet 语义 , 计算 用 户 偏好 的 标签 集 与 资源 的 标签 
集 的 相似 度 , 将 相似 度 高 的 标签 分 别 对 应 的 用 户 和 资 
源 进行 比 对 ,并 将 相 匹 配 的 资源 推荐 给 用 户 。 还 有 将 
以 上 主要 方法 相 结 合 的 混合 推荐 方法 ，Rafailidis 等 7 
先 对 标签 、 用 户 和 资源 三 阶 和 矩阵 利用 张 量 分 解 方法 降 
维 ， 然 后 对 标签 聚 类 ， 既 解决 了 三 元 矩阵 计算 复杂 度 
高 的 问题 ,也 避免 了 稀 玻 矩阵 对 相似 度 计算 的 影响 ， 
对 两 种 方法 扬长 避 短 , 实现 了 资源 的 个 性 化 推荐 。 还 
有 根据 标签 的 流行 度 、 时 间 特 征 或 标签 的 代表 性 、 用 
户 与 标签 的 亲和力 等 刻画 用 户 对 资源 的 偏好 , 采用 梯 
度 下 降 法 对 用 户 -资源 矩阵 进行 分 解 ,利用 分 解 后 的 
寺 征 和 矩阵 对 目标 用 户 进 行 预测 并 推荐 1。 
虽然 学 者 们 从 多 个 视角 研究 了 基于 标签 的 推荐 算 
法 来 解决 推荐 研究 中 固有 的 问题 ,并 试图 避免 标签 本 
身 的 缺陷 带 来 的 新 间 题 。 但 是 ,这 些 基 于 标签 的 推荐 
算法 仍然 存在 如 下 不 足 : 

(1) 不 管 是 矩阵 方法 还 是 图 论 方法 , 计算 复杂 度 
都 很 高 ; 

(2) 虽然 标签 总 量 较 大 , 但 部 分 单个 用 户 所 标注 
标签 数目 较 少 , 难以 准确 获取 用 户 偏 好 ,限制 了 推荐 
的 效果 ; 

(3) 标签 语义 存在 歧义 , 造成 数据 的 噪音 干扰 ; 

(4) 目前 大 部 分 研究 在 进行 推荐 时 假设 用 户 兴 
是 不 变 的 , 这 不 符合 现实 情况 , 虽然 最 近 有 些 研 究 考 
虑 了 时 间 等 情境 因素 对 用 户 标注 行为 的 影响 , 但 很 少 
考虑 多 方面 因素 的 综合 影响 ， 且 研究 成 果 较 少 。 

因此 , 在 前 人 研究 基础 上 , 本 文 提出 一 种 社会 化 
电子 商务 环境 下 利用 社会 化 标签 的 个 性 化 商品 推荐 模 
型 ， 该 模型 综合 考虑 用 户 使 用 标签 的 频率 和 时 间 因 素 
计算 用 户 的 兴趣 偏好 ,并 基于 标签 特征 和 电子 商务 网 
站 中 商品 检索 条 件 , 构建 某 一 主题 商务 社区 中 商品 本 
体 , 利用 本 体 规 范 化 用 户 标 签 语义 ， 并 对 商品 进行 分 
类 ,寻找 含有 用 户 偏 好 的 类 簇 , 计算 该 类 簇 中 商品 与 
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用 户 偏好 商品 的 相似 度 ， 并 将 用 户 未 标注 过 的 与 用 户 
裔 好 相似 的 商品 推荐 给 用 户 。 本 文 方法 旨 在 对 算法 计 
算 的 复杂 度 、 标 签 语义 规范 化 、 以 及 综合 考虑 不 同 因 
素 对 标签 作用 的 影响 三 方面 进行 改进 。 


户 -标签 ( 带 时 间 )- 商 品 数据 获 钙 


标签 词 频 统计 


购物 网 站 商品 
检索 条 件 


I se st 


:于 标签 的 产品 分 类 


将 相似 度 高 
推荐 给 用 


户 未 标注 的 K 个 产品 


图 1 基于 标签 


3.1 商品 本 体 构 建 

(1) 标签 数据 获取 及 词 频 统计 

在 社会 化 电子 商务 网 站 中 , 每 一 个 注册 用 户 可 以 
自由 管理 感 兴趣 的 商品 信息 。 很 多 社会 化 电子 商务 网 
站 提供 了 用 户 分 类 表达 自己 兴趣 内 容 的 工具 : 如 “ 喜 
欢 ”“ 兴 趣 ”“ 关 注 ”"“ 分 享 ” 等 分 类 夹 。 翻 东西 网 让 
用 户 将 自己 满意 的 试 穿 效果 图 放 在 “ 哇 晒 ”分 类 夹 中 ， 
而 将 自己 在 其 他 购物 网 站 看 到 并 喜欢 的 商品 通过 复制 
网 址 的 方式 分 享 于 “喜欢 ”分 类 夹 中 , 在 “ 帮 我 挑 ” 中 分 
享 自 己 的 购物 经 验 , 用 户 也 可 以 关注 其 他 用 户 或 品 
牌 。 由 于 用 户 标 注 数 量 相差 较 大 , 大 部 分 用 户 标签 稀 
中， 本文 对 商务 社区 中 标签 的 理解 不 单 是 “喜欢 ”分 类 
夹 中 的 标签 , 而 是 所 有 分 类 夹 中 用 户 对 商品 的 标注 ， 
以 全 面 获 取 用 户 兴趣 偏好 。 

购物 社区 中 的 用 户 标签 不 仅 是 用 户 利 用 简短 关键 
词 对 商品 名 称 和 商品 特征 的 个 性 表达 , 也 是 用 户 与 商 
品 之 间 的 纽带 。 通 过 观察 不 同 用 户 对 同一 商品 的 标注 
关系 以 及 一 个 用 户 对 多 个 商品 的 标注 关系 组 成 的 集 
合 ， 可 以 看 出 用 户 、 标 签 和 资源 三 者 之 间 的 关联 。 这 
样 可 以 通过 合适 的 方法 ,将 标签 作为 中 介 和 分 析 对 象 ， 
发 现 用 户 关于 商品 的 兴趣 偏好 ， 如 图 2 所 示 。 
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3 ”基于 标签 的 商品 推荐 模型 构建 


根据 以 上 的 思路 , 构建 基于 标签 的 商品 推荐 模型 ， 
如 图 1 所 示 。 


计算 用 户 使 
用 标签 的 频 
率 权重 集成 时 间 
和 频率 权 
重 的 标签 
偏好 向 量 


计算 用 户 使 
用 标签 的 时 
间 权 重 


户 偏好 标签 所 在 类 别 


计算 用 户 偏 好 产生 
产品 标签 的 相似 度 


品 标签 与 类 别 中 


的 商品 推荐 模型 
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图 2 ”社会 化 电子 商务 中 的 用 户 -标签 -商品 
关系 示例 

社会 化 电子 商务 网 站 提供 了 用 户 给 商品 添加 标签 
的 功能 , 并 通过 积分 奖励 的 办 法 鼓励 他 们 将 自己 喜欢 
的 商品 和 标注 的 标签 分 享 给 网 站 中 其 他 的 
当然 这 些 分 享 信息 非 注 册 用 户 也 可 以 看 到 。 os 
都 在 用 户 的 “喜欢 ”"、“ 晒 单 "、“ 兴 趣 ”、“ 分 享 " 主 
显示 了 用 户 感 兴趣 的 商品 及 偏好 主题 ， a 
用 户 -标签 -商品 之 间 的 关系 是 用 户 偏好 获取 的 前 提 。 

本 文 先 利 用 网 络 爬 到 工具 从 商务 社区 疏 取 用 户 .用 
户 标注 的 商品 标签 及 其 时 间 ( 各 标签 之 问 用 空格 分 开 )、 


该 用 户 标注 过 的 商品 信息 ,并 将 其 保存 在 电子 文档 中 。 
将 标签 分 别 表示 为 用 户 标签 ( 某 用 户 标注 的 所 有 商品 标 
签 ) 和 商品 标签 (不 同 用 户 给 同一 个 商品 的 标注 ) 用 户 
标签 初始 表示 为 il((tag1, timei), (tag;, time;),…, (tag,, 
time)), i 为 用 户 集合 了 中 的 元 素 ,n 为 用 户 i 所 使 用 的 标 
签 数 , time 为 对 应 标签 标注 的 时 间 。 商 品 标签 初始 表示 
为 p((tagi, freq1), (tagz jeq) (iagm Jeqm),P 为 商品 
集合 P 中 的 元 素 , m 为 商品 p 所 使 用 的 非 重复 标签 数 ， 
Jed 为 对 应 标签 使 用 的 次 数 。 将 电子 文档 中 标签 一 列 单独 
出 , 利用 中 国 科 学 院 计算 技术 研究 所 的 ICTCLAS3.0 分 

词 系统 对 其 进行 词 频 统计 ,并 按 词 频 大 小 排序 标签 。 

(2) 商品 本 体 构 建 方法 

本 体能 够 表达 概念 之 间 的 语义 层次 关系 ,利用 标 
签 本 体 可 以 规范 标签 语义 ,也 可 以 进行 标签 分 类 。 本 
文 构建 标签 本 体 的 目的 是 对 商品 类 型 和 商品 属性 等 信 
息 进 行规 范 化 的 再 组 织 ， 以 提高 商品 推荐 的 效果 。 遗 
憾 的 是 ， 由 于 本 体 构建 本 身 的 难度 ,到 目前 为 止 , 很 少 
有 将 本 体 应 用 于 基于 标签 的 商品 推荐 中 的 研究 成 果 ， 
说 明基 于 标签 的 推荐 与 本 体 相 结合 的 研究 还 很 少见 。 

标签 不 仅 能 够 表达 用 户 偏好 ,也 标注 了 商品 属性 
和 类 别 ， 隐 含 表 达 了 各 种 商品 及 其 属性 的 层次 关系 和 
对 应 关系 。 本 文 实验 研究 的 是 服饰 类 商品 的 标签 本 体 和 
推荐 问题 , 图 3 表示 商品 和 标签 的 层次 及 对 应 结构 示意 
图 。 其 表达 的 意思 是 , 一 个 大 类 下 面 有 多 个 小 的 类 别 ， 
如 服饰 与 帽子 、 上 衣 ; 每 一 个 小 类 可 以 有 多 个 实例 ,如 
裤子 小 类 中 包含 打 底 裤 、 短 裤 等 ; 每 一 个 实例 可 以 有 多 
个 特征 ,如 用 户 可 以 对 一 条 长 裙 标注 清新 、 优 雅 等 多 个 
标签 , 这 些 大 类 、 小 类 、 实例 和 特征 之 间 具 有 层次 关系 ， 
标注 它们 的 标签 也 应 该 具有 层次 关系 。 


款式 


图 3 标签 层次 及 对 应 结构 
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一 个 商品 可 以 用 多 个 标签 标注 ， 而 标签 之 间 的 层 
次 及 对 应 关系 可 以 表达 出 来 。 那 么 , 在 基于 标签 的 商 
品 推荐 中 , 通过 这 种 层次 结构 对 商品 分 类 ,并 基于 标 
签 计算 商品 之 间 的 相似 度 时 , 具有 以 下 规律 : 

OD 档 述 不 同 商品 特征 共用 的 标签 越 多 ,而 共用 标签 标 
注 的 商品 越 少 , 这 些 商品 越 相 似 。 图 3 中 ,“ 打 底 裤 ” 和 “短裤 ” 
两 款 商 品 共 用 的 标签 是 “性 感 "而 “网 舌 帽 "“ 短 裤 " “长 福 ” 
三 款 商 品 共 用 的 标签 是 “ 清 更 ”， 因此 sim( 打 底 裤 ， 短裤 ) 二 
sim( 长 裙 ， 短裤 ); 

@) 共 同 标签 离 商品 越 远 ， 商 品 之 间 越 不 相似 ， 反 之 越 相 
似 。 图 3 中 商品 “ 打 底 裤 "”“ 短 裤 " 的 最 近 共 同 标签 是 “裤子 ” 商 
品 “ 短 裤 ”"“ 长 裙 ”的 最 近 共 同 标 签 是 “服饰 ” 而 “裤子 "是 “ 服 
饰 " 的 子 节点 ， 因 此 sim( 打 底 裤 ， 短 裤 )>sim( 长 裙 ， 短裤); 

加 由 于 标签 是 对 商品 的 全 方位 描述 , 理论 上 ， 商 品 的 标 
签 差 异性 越 大 ， 商品 越 不 相似 , 反之 越 相 似 。 但 由 于 有 些 标 
签 会 重复 使 用 实际 的 差异 性 可 能 比 按 相 似 度 计 算出 来 的 
更 大 。 

社会 化 电子 商务 网 站 中 的 用 户 标注 的 标签 随意 性 
很 大 ,也 很 难看 出 其 层次 对 应 关系 ， 因 此， 本 文 参照 
电子 商务 购物 网 站 淘宝 网 的 服饰 类 搜索 条 件 , 构建 服 
饰 类 商品 标签 本 体 的 品种 及 其 属性 关系 。 如 输入 “ 服 
饰 ”， 其 下 品类 有 “衣服 ”"、“ 鞋 子 "、“ 首 饰 "、“ 包 包 ” 等 ; 
“衣服 ”品类 下 有 “上 衣 ”“ 裙 子 ” “裤子 ”等 ， 而 关于 “ 衫 
子 " 特 征 的 检索 条 件 又 有 “材质 "图案 ”“ 风 格 ”“ 流 
行 元 素 "。 再 根据 社会 化 电子 商务 网 站 翻 东 西 中 “大 家 
淘 ” 版 块 的 热点 标签 中 用 户 给 服饰 类 商品 标注 的 标签 
的 词 频 统计 , 构建 商品 本 体 。 如 在 裙子 的 “流行 元 素 ” 
特征 描述 中 , 高 频 词 有 “拼接 *"、“ 匀 空 ” 等 ,“ 风 格 ” 特 征 
描述 的 高 频 词 有 “时 尚 "“ 可 爱 ” 等 。 结 合 淘宝 网 和 翻 


东西 网 上 的 热点 标签 构建 的 商品 标签 概念 本 体 ， 如 图 
4 所 示 。 


(3) 标签 的 规范 化 处 理 

根据 本 体 中 不 同 商品 类 型 及 其 属性 描述 词汇 ， 
特别 是 关于 商品 特征 的 描述 词汇 , 将 用 户 随意 使 用 
的 属性 词汇 用 本 体 中 意思 相同 或 最 相近 的 属性 描述 
词 替换 。 这 里 参照 电子 商务 网 站 的 检索 条 件 和 社会 化 
电子 商务 网 站 高 频 词 ,通过 人 工 综合 分 析 来 蔡 换 。 如 
以 上 的 服饰 商品 中 , 对 上 衣 风 格 的 描述 有 “卡通 ”“ 甜 
美 "、“ 小 清新 *" 、“ 萌 ”"、“ 可 爱 ”,， 其 中 “卡通 ”是 本 体 中 
没有 的 , 但 根据 同义词 典 , 这 些 词 都 与 “可 爱 "意思 相 
近 ， 因 此 用 “可 爱 ” 替 代 。 类 似 的 还 有 “ 百 搭 ”与 “混搭 ”， 
将 “ 混 措 ?统一 替换 为 " 百 搭 ” 等 等 。 将 所 有 规范 化 的 
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标签 更 新 电子 文档 中 的 初始 标签 , 并 将 同一 用 户 关 
于 不 同 商 品 的 标签 和 不 同 用 户 关于 同一 商品 的 标签 
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分 别 表示 为 标签 向 量 ,作为 下 一 步 用 户 偏好 建 模 的 
输入 数据 。 


TD 
一 C 丁 商 、 可 爱 .> 


热门 品类 本 CR 


图 4 基于 标签 的 本 体 构 建 


3.2 ”用 户 偏 好 建 模 

根据 标签 构建 用 户 偏好 模型 的 目的 是 从 标签 中 获 
取 用 户 对 商品 的 隐 性 需求 或 偏好 。 综 合 考虑 标签 标注 
时 间 和 标签 使 用 频率 对 用 户 偏好 的 影响 , 分 别 计算 用 
户 使 用 标签 的 时 间 权 重 和 用 户 使 用 标签 的 频率 权重 ， 
集成 这 两 个 影响 因子 权重 计算 基于 标签 的 用 户 偏好 。 

(1) 用 户 使 用 标签 的 频率 权重 计算 

用 户 使 用 的 商品 标签 能 够 反映 该 用 户 对 商品 的 兴 
趣 偏 好 。 用 户 对 某 些 标 签 使 用 越 多 , 说 明 对 其 情 有 独 
钟 ， 也 说 明 对 这 些 标签 共同 描述 的 商品 的 喜爱 。 对 于 
商品 而 言 , 不 管 多 少 个 用 户 对 一 件 商品 进行 标注 ， 标 
注 的 标签 可 以 反映 该 商品 的 特征 。 某 些 标签 使 用 的 频 
率 越 高 , 它们 就 越 能 代表 这 个 商品 的 特征 。 
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在 构建 用 户 偏好 模型 时 , 重点 考虑 用 户 使 用 过 的 
标签 。 当 用 户 在 浏览 网 上 资源 时 ,对 自己 喜欢 的 资源 选 
择 相应 的 标签 进行 标注 。 标 签 的 类 别 可 以 从 一 定 程 度 上 
反映 用 户 的 喜好 类 型 ， 比 如 用 户 “ 好 男人 ”采用 的 标签 
中 , 经 常 出 现 “ 外 套 ”"、“ 休 闲 ” 等 短语 , 那么 “好 男人 ”可 
能 喜欢 外 套 或 休闲 类 服饰 。 并 且 “ 好 男人 ”使 用 的 标签 
中 “休闲 ”这 一 标签 出 现 的 频率 较 高 时 ， 可 能 因为 用 户 
更 加 喜欢 休闲 类 服装 。 也 就 是 说 , 用 户 使 用 的 标签 频率 
可 以 反映 用 户 的 喜好 程度 。 但 有 学 者 提出 , 如果 用 户 高 
频率 使 用 标注 系统 中 低频 率 出 现 的 标签 , 则 表明 该 标 
签 内 容 更 能 反映 用 户 对 商品 的 偏好 。 故 此 通过 计算 标签 
与 用 户 间 的 关联 程度 可 以 判断 标签 内 容 是 否 真正 与 用 
户 兴趣 相 吻 合 。 这 也 是 传统 TF-IDF 算法 的 要 义 , 进而 


引入 TF-IDF 算法 可 以 计算 标签 与 用 户 的 关联 程度 。 

假设 尽 表示 用 户 集合 , 了 表示 标签 集合 , P 表示 商 
品 集合 。 

OD 对 ueU, 已 表示 用 户 z 标注 过 的 商品 集合 , T, 表 示 用 
户 u 使 用 过 的 标签 集合 。 

@ 对 teT, P 表 示 用 标签 1 标注 过 的 所 有 商品 集合 , Ui 表 
示 用 过 标签 1 的 用 户 集合 。 

加 对 peP, TJ， 表示 标注 了 商品 的 标签 集合 ,U, 表 示 标 
注 了 商品 p 的 用 户 集合 。 


其 中 , 9 表示 由 标签 ! 标注 的 某 个 产品 , relatelt, p) 
值 越 大 , 说 明 表 示 用 该 标签 标注 的 同一 产品 的 用 户 越 
多 , 该 标签 与 产品 的 相关 度 越 大 , 标签 t 越 能 代表 产品 
p, 在 标签 t 下 产品 p 得 到 推荐 的 优先 级 就 越 高 。 这样， 
产品 的 标签 向量 可 以 表示 为 T=(tip(relate(t，p)), 
tp(relate (t,, p)), ***, tnp(relate(tn, p)))o 

(2) 用 户 标注 标签 的 时 间 权 重 计算 

由 于 用 户 兴 趣 存在 偏 移 现象 ,用户 所 使 用 的 标签 


因此 , 三 元 组 (u, p, 0 表示 用 户 x 用 标签 :标注 了 商 
品 P。 

每 个 用 户 的 标签 集 通 过 使 用 一 个 标签 向 量 
TOa2( 加 Pu) ,txU( 访 )) 来 表示 。 其 中 ,mm 是 标签 
的 个 数 ， tyu 表示 用 户 4 的 第 m 个 标签 , f 表示 用 户 zx 
的 第 m 个 标签 的 频率 。 tu fj) 描述 标 签 表示 的 用 户 
偏好 程度 , ,用 TF-IDF 公式 计算 , 如 公式 (1) 所 示 。 
tnu( fn) = Th (Fn) XIDF, (fn) (1) 
对 三 元 组 进一步 挖 据 , 将 用 户 w 使 用 的 标签 1 的 次 
数 记 为 count(u, ,使 用 标签 1 标注 商品 p 的 用 户 集合 
记 为 UserCountlt, p)。 由 用 户 使 用 的 标签 1 的 次 数 及 所 
有 用 户 使 用 标签 ! 的 次 数 , 可 以 得 出 用 户 x 使 用 标签 : 
的 频率 , 用 Th.( 有/) 表 示 该 频率 ， 如 公式 (2) 所 示 。 

= UserCount(u,t) 


> UserCount(u, k) 
keU, 


其 中 ,大 表示 用 户 标注 过 的 某 个 标签 ， 如 公式 (3) 
所 示 。 


(2) 


IDFu(f)= ihe (3) 
n 


1 


其 中 , N 表示 用 户 总 数 , n, 表示 收 藏 和 使 用 标签 t 
的 用 户 总 数 。 
将 公式 (2) 和 公式 (3) 带 入 公式 (1) 得 出 用 户 与 标签 
的 联系 程度 ， 如 公式 (4) 所 示 。 
eth UserCount(u,t) 


一 -一 一 
> UserCount(u, k) 
keU, 


商品 的 各 个 标签 的 使 用 频率 也 可 以 用 标注 该 商品 
某 标签 的 使 用 次 数 除 以 该 商品 的 所 有 标签 数 。 那 么 标 
签 与 商品 的 相关 程度 的 计算 方法 如 公式 (3) 所 示 。 
UserCount(t, p) 


> UserCount(t, q) 
geP, 


je 
n 


(5) 


relate(t, p) = 


会 随时 间 而 变化 。 例 如 , 用 户 wu 过 去 用 众多 “春装 ”的 标 
签 去 标注 相关 商品 ,也许 因 为 那 时 是 春秋 季节 ， 此 人 想 
购买 当 季 的 服装 。 随 着 季节 变化 , 用 户 可 能 会 关注 其 他 
季节 的 服装 。 再 如 ， 当 用 户 计 划 旅 游 时 ,会 关注 旅游 地 
以 及 旅游 景点 进而 对 这 些 信息 有 较 多 的 标注 ， 当 用 户 
选择 一 个 旅游 景点 后 , 可 能 会 关注 当地 的 宾馆 、 小 吃 、 
特产 以 及 娱乐 场所 等 。 因 此 应 更 关注 用 户 近期 的 标注 ， 
这 种 近期 标签 相 比 历史 标签 更 能 反映 用 户 兴趣 热点 ， 
对 用 户 未 来 行为 预测 更 有 帮助 。 所 以 , 时 间 是 标注 行为 
中 的 重要 信息 因素 , 引入 时 间 信 息 能 更 好 地 获取 用 户 
最 新 兴趣 热点 , 使 用 户 获 得 高 匹配 的 个 性 化 推荐 。 
通常 ,用 户 关注 资源 的 时 间距 当前 越 近 , 该 资源 
就 越 有 价值 ， 即 与 用 户 当前 兴趣 热点 相关 性 越 高 。 男 
外 ,用 户 对 标签 的 兴趣 偏好 与 用 户 对 同一 标签 关注 时 
间 长 度 正 相关 , 关注 时 间 持 续 越 长 ， 用户 对 标签 越 感 
兴趣 ,标签 与 用 户 当前 兴趣 热点 吻合 度 越 高 。Cheng 
等 中 考虑 到 用 户 兴趣 热点 会 随时 间 偏 移 , 采用 自 适应 
昌 数 衰减 函数 来 处 理 这 一 问题 ， 而 指数 遗 筷 函数 是 利 
用 时 间 效 应 建 模 中 广泛 使 用 的 一 种 函数 ,这 种 方法 通 
过 弱化 用 户 历史 行为 影响 以 强化 近期 行为 的 作用 。 本 
文 将 指数 遗忘 函数 引用 到 通过 用 户 对 标签 使 用 时 间 来 
挖 气 用 户 标签 偏好 中 , 结合 时 间 信 息 计算 用 户 标注 的 
标签 权重 , 如 公式 (6) 所 示 。 

Pei Dp,)=exp{-lIn2xtime(u,,p,)/hl,} (6) 

其 中 ，Piwe(um, pn) 是 通过 时 间 因 素 计算 出 来 的 用 
户 ww 对 产品 p, 的 标签 权重 , 揭示 了 用 户 ww 对 产品 p 
的 偏好 。 其 中 time(ws, pn) 是 一 个 非 负 整数 值 ， 当 用 户 
Un 对 产品 p, 的 标注 行为 是 用 户 w 的 标注 行为 的 最 后 
一 天 , 那么 time(um， pr) 被 设置 成 0,， 知 是 倒数 第 二 天 ， 
则 设置 为 1, 以 此 类 推 。 zz 代表 用 户 的 生命 周期 , 其 
计算 方法 如 公式 (7) 所 示 。 
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hlu = Date,,, - Date,,, (7) 

其 中 ，Datej 是 用 户 最 后 一 次 标注 标签 的 时 间 ， 
Datepogin 是 用 户 第 一 次 标注 标签 的 时 间 。 

长 生命 周期 用 户 的 兴趣 因 稳 定性 好 而 下 降 缓慢 ， 
故 对 其 近期 兴趣 不 宜 过 高 偏重 。 而 短 生命 周期 用 户 兴 
趣 因 不 成 熟 性 而 变化 较 快 ,生命 周期 短 的 用 户 的 兴 
变化 大 , 故 对 其 近期 兴趣 应 给 更 多 倚重 。 本 文 赋予 近 
期 行为 权重 高 于 之 前 历史 行为 权重 , 借助 时 间 效 应 更 
好 地 识别 出 用 户 当 前 兴趣 热点 。 

使 用 时 间 权 重 对 每 个 用 户 的 标签 集 进行 量化 表 
示 , 通过 使 用 一 个 标签 向 量 T(tw(time1), tyu(time,), …， 
tnu(time)) 表 示 。 其 中 , m 是 标签 的 个 数 , tu 表示 用 户 
u 的 第 m 个 标签 , time 表示 用 户 w 的 第 m 个 标签 的 时 
间 权 重 ，tu(time) 描 述 标 签 ,在 多 大 程度 上 体现 近期 
用 户 的 兴趣 爱好 。 

(3) 集成 频率 与 时 间 的 用 户 偏好 表达 

加 权 标 签 能 更 好 地 将 用 户 对 商品 的 意见 与 兴趣 表 
现 出 来 , 其 丰富 信息 有 助 于 构建 更 全 面 和 更 精确 的 用 
户 模 型 。 用 户 对 标签 内 容 偏好 程度 与 用 户 使 用 标签 的 
频率 正 相 关 , 用 户 越 频繁 使 用 某 些 标 签 , 说 明 用 户 越 
偏爱 这 些 标签 所 标注 的 商品 ;， 用户 当 前 兴趣 与 标签 使 
用 时 间 负 相关 ， 即 标签 使 用 时 间距 当前 时 间 越 远 , 越 
不 能 反映 用 户 当前 兴趣 , 最 新 使 用 的 标签 则 更 能 反映 
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的 关系 分 类 商品 标签 ,并 将 分 类 后 的 商品 标签 集 与 用 
户 偏 好 标签 匹配 , 找到 相 匹 配 的 商品 标签 集 后 ， 进 一 
步 计 算 各 匹配 标签 集中 的 商品 标签 与 用 户 偏好 标签 的 
相似 度 , 将 相似 度 高 的 若干 商品 标签 所 标注 的 商品 推 
荐 给 用 户 。 

(1) 基于 本 体 的 商品 分 类 

本 体 中 实体 之 间 的 关联 关系 以 及 实体 与 其 属性 之 
间 的 层次 关系 可 以 直观 显示 ,而 商品 标签 也 非 直 观 表 
达 了 商品 的 类 型 、 风 格 等 信息 ,商品 的 标签 和 分 类 之 
间 存 在 联系 。 可 以 将 商品 标签 遍历 本 体 的 这 些 关 系 ， 
将 商品 进行 归 类 , 每 一 个 类 代表 一 个 主题 。 利 用 标签 
本 体 对 商品 进行 归 类 后 , 每 一 个 商品 属于 一 个 分 类 簇 ， 
将 所 有 的 商品 分 配 到 一 个 单独 的 类 簇 ( 即 主题 )， 有 若 
干 个 处 在 本 体 描述 的 关系 结构 树 的 不 同位 置 的 类 艇 。 

本 文 提出 基于 标签 的 商品 推荐 是 一 个 跨 主题 的 推 
荐 ,对 每 一 个 用 户 标 签 , 在 各 类 簇 中 查找 与 其 匹配 的 
商品 标签 ， 至 少 有 一 个 与 用 户 标签 相同 。 找 到 匹配 的 
类 艇 后 , 计算 该 类 艇 中 用 户 未 标注 的 各 商品 标签 与 用 
户 标 签 的 相似 度 ， 相似 度 越 高 越 优先 推荐 。 

(2) 同类 别 的 商品 标签 与 用 户 标 签 的 相似 度 计算 

用 户 对 某 个 物品 打上 标签 ,说 明 用 户 对 此 物品 存 
在 某 种 兴趣 。 用 户 对 该 标签 内 容 兴 趣 越 高 ,使 用 频率 
越 大 。 利 用 标签 为 特定 用 户 进 行 物品 推荐 计算 时 , 先 


用 户 的 当前 兴趣 。 该 模型 利用 上 述 两 点 提出 频率 权 标 
签 偏好 和 时 间 权 标签 偏好 ,最 后 将 两 者 融合 提出 最 终 
的 用 户 标 签 偏好 向 量 , 使 个 性 化 推荐 系统 具有 更 好 的 
可 扩展 性 和 实时 性 特征 。 

本 文 不 仅 利用 用 户 对 标签 使 用 次 数 的 多 少 评判 其 
标签 偏好 , 也 考虑 用 户 标 注 时 间 因 素 ， 即 二 者 的 集成 。 
如 果 用 户 高 频率 使 用 某 标签 , 说 明 此 标签 所 标注 的 商 
品 对 用 户 具 有 高 兴趣 度 ， 而 标注 的 时 间 权 重 越 大 , 越 
能 够 反映 用 户 的 最 近 兴 趣 。 因 此 , 本文 用 标签 的 频率 
权重 与 时 间 权 重 相 乘 得 到 用 户 最 终 的 兴趣 标签 。 利 用 
上 述 公式 对 用 户 u 的 标签 向 量 进行 修正 后 的 结果 如 公 
式 (8) 所 示 。 

T=(tiu(fi)xtiu(timei), tau(fo) Xtu(time,), *…, 
tnu(fm) Xtmu(timenm)) (8) 
3.3 个 性 化 商品 推荐 

本 文 提出 的 基于 标签 -本 体 的 商品 推荐 在 建立 商 

品 标签 本 体 和 用 户 偏好 模型 后 ,利用 本 体 中 概念 之 间 
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通过 计算 与 目标 用 户 的 相似 性 挖掘 出 相似 用 户 , 再 借 
助 用 户 协 同 推荐 算法 为 目标 用 户 提供 含有 NN 个 供 选 物 
品 的 推荐 列表 。 本 文中 用 户 将 获得 与 自身 偏好 相似 度 高 
的 商品 推荐 , 并 计算 商品 标签 用 户 偏好 之 间 的 相似 度 。 
上 文 已 将 用 户 标 签 及 商品 标签 进行 了 权重 表达 ， 
用 户 标 签 向 量 如 公式 (9) 所 示 。 
T=(tiu(fi)xtiu(timei), UP)x tou(times), **, 
tiu(fn) Xtaul(time;)) (9) 
商品 标签 向 量 如 公式 (10) 所 示 。 
T=(tip(relate(ti, p)), tp(relate(ts, p)), …, 
tp(relate(s, p))) (10) 
先 将 全 体 物 品 标签 与 加 权 后 用 户 标签 采取 向 量 表 
示 , 利用 余弦 相似 度 方法 进行 匹配 主题 内 商品 pj 的 标签 
和 用 户 wi; 的 标签 之 间 的 相似 度 计算 , 如 公式 (11) 所 示 。 


> 
ur x p’ 


Sim;; (ui, pj;) = (11) 


4 
Ui 


pj 


设 定 预 设 闵 值 为 e。 如 果 simj(wi, p)>e， 则 商品 与 
用 户 偏 好 相似 。 
(3) 相似 度 排序 与 商品 推荐 
根据 计算 的 用 户 标 签 俩 好 向 量 与 商品 标签 向 量 的 
相似 度 ， 当 二 者 的 相似 性 大 于 阔 值 时 ,， 则 将 该 商品 作 
为 候选 推荐 对 象 , 得 出 所 有 的 候选 商品 后 ， 按 相似 度 
值 从 大 到 小 排序 , 最 终 选 取 TOP-K 形成 推荐 商品 列 
表 , 推荐 给 用 户 。 


4 实验 及 结果 分 析 


4.1 实验 数据 的 描述 与 处 理 

“ 翻 东西 "是 国内 典型 的 第 三 方 社会 化 电子 商务 网 
站 ,网 站 中 聚集 了 大 量 的 用 户 ， 他 们 以 “标签 + 图 片 ” 的 
形式 分 享 自己 喜欢 、 感 兴趣 以 及 购买 过 商品 信息 ,其 他 
用 户 也 可 以 关注 自己 或 自己 的 标签 , 也 可 以 评论 用 户 
分 享 的 商品 。 目 前 , 该 网 站 聚集 了 大 量 用 户 , 热门 标注 
的 商品 接近 30 万 件 , 热门 标签 约 75 万 个 。 本文 从 热门 
标注 的 商品 中 随机 择 取 近期 最 活跃 的 200 个 用 户 作 为 
目标 用 户 ,主要 涉及 服饰 类 商品 ,标签 总 数 超过 8 万 。 
对 用 户 及 其 标注 的 信息 进行 采集 ， 获 取 的 字段 包括 用 
户 名 、 标 签 、 标 注 的 时 间 、 商 品名 称 ， 以 电子 文档 保存 。 

按 用 户 将 数据 集 随 机 分 成 10 份 , 选取 1 份 作为 测 
试 集 , 另外 9 份 组 成 训练 集 。 按 照 本 文 构建 的 推荐 模 
型 的 思路 和 方法 进行 实验 。 实 验 工具 有 : 八 爪 鱼 采 集 
器 、Protkg6E、Excel、ICTCLAS3.0。 
4.2 ”数据 分 析 

分 别 计算 用 户 标签 的 使 用 频率 权重 系数 和 标注 时 
间 权 重 系数 ， 并 将 其 乘积 作为 用 户 标 签 权 重 , 也 即 用 
户 标签 偏好 值 。 图 5 是 测试 集中 用 户 “ 裙 子 飞 了 ”的 标 
签 权重 计算 结果 。 
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图 5 用 户 标签 权重 计算 结果 (部 分 ) 


根据 建立 的 商品 本 体 , 将 训练 集中 商品 按 商 品 主 
题 分 类 , 找到 用 户 标签 匹配 的 主题 。 笔 者 通过 计算 测 
试 集中 用 户 标签 偏好 值 与 训练 集中 匹配 主题 下 的 商品 
标签 的 相似 度 ,将 相似 度 高 (本 文 取 相似 度 阔 值 为 0.5， 
即将 相似 度 不 小 于 0.5 的 商品 作为 候选 推荐 商品 ) 的 若 
干 商品 推荐 给 用 户 。 

为 了 检验 本 文 方法 (TFT-Based), 将 其 与 只 考虑 标 
签 时 间 权 重 的 推荐 (TT-Based)、 只 考虑 标签 频率 权重 的 
推荐 (FT-Based) 和 不 考虑 标签 权重 的 推荐 方法 
(T-Based) 进 行 比 较 。 参 照 利 用 标签 进行 资源 推荐 的 两 
篇 文章 的 评价 方法 PC， 以 准确 率 (PrecisiomJ、 召 回 率 
(RecaI 由 和 严 WMeaswre 值 三 个 指标 作为 本 文 推荐 方法 结 
果 的 度量 。 准 确 率 表示 用 户 对 所 推荐 商品 感 兴趣 的 概 
率 , 召回 率 表示 用 户 感 兴趣 的 商品 被 推荐 的 概率 。 两 
个 概率 值 越 高 ,表示 该 方法 推荐 的 质量 越 好 。 对 于 用 
户 u, 令 P(w) 为 给 用 户 w 的 长 度 为 N 的 推荐 列表 , 令 
D(w) 是 测试 集中 用 户 w 实际 打 过 标签 的 物品 集合 。 
计算 如 公式 (12)- 公 式 (14) 所 示 。 
2 |PQ@) NN Do 
I Pea (12) 
ueU 
> [PWN DE) 
Recall= 2 (13) 


Do 


ueU 


FMeasure= 2 x Precision x Recall (14) 
Precision + Recall 


4.3 ”实验 对 比 与 结果 分 析 

根据 公式 (12)- 公 式 (1 和 的 计算 方法 , 分 别 计算 
TFT-Based、TT-Based 、FT-Based 和 TBased 4 种 推荐 
方法 的 Precision、Recall 和 FF-Measure 值 ， 并 用 直观 图 
形 显示 ,如 图 6- 图 8 所 示 , 其 中 横 坐 标 表示 推荐 结 
靠 前 (TopK) 的 K 的 不 同 取 值 。 

从 图 6 可知 ,4 种 方法 推荐 的 准确 率 随 着 K 值 的 增 
加 缓慢 提高 ， 最 高 的 是 本 文 的 推荐 方法 。 但 当 K<15 
时 , 4 种 推荐 方法 的 准确 率 都 不 高 ,这 可 能 与 用 户 用 词 
的 趋同 性 有 关 。 本 来 是 截然 不 同 的 两 个 物品 , 在 用 户 
没有 标注 细 粒 度 品类 特征 的 情况 下 ,所 描述 的 属性 特 
征 却 可 能 相同 ， 这 样 会 导致 与 目标 用 户 兴 趣 不 同 的 物 
品 可 能 会 被 推荐 , 降低 商品 推荐 的 准确 率 。 如 一 件 夏 


Data Analysis and Knowledge Discovery 


201712.01372V1 


chinaXiv 


季 的 茧 丝 衬衫 和 一 件 秋季 的 蓄 丝 外 套 , 都 标注 “ 茧 丝 、 


ChinaXiv 合 作 期 刊 


_ 太 究 @ 文 


荐 。 这 给 基于 标签 的 商品 推荐 提出 了 很 大 的 挑战 ,如 


时 尚 、 韩 范 儿 ”* 的 标签 , 被 认为 是 相同 或 相似 度 很 高 的 
两 件 衣 服 会 被 推荐 给 目标 用 户 , 但 欲 购买 秋装 的 目标 
用 户 可 能 不 喜欢 , 这 也 证 实 了 基于 文本 分 析 的 推荐 的 
次 端 。 实 际 上 ,用 户 喜 欢 用 图 文 并 上 茂 的 形式 分 享 自己 
喜欢 的 物品 ， 如 果 能 够 识别 图 片 中 物品 的 特征 , 在 研 
究 时 将 其 添加 到 标签 中 , 或 直接 提取 图 片 中 物品 的 识 
别 特征 , 在 此 基础 上 进行 推荐 , 将 会 大 大 提高 基于 标 
签 或 关键 词 的 推荐 准确 度 。 

随 着 天 值 的 增加 , 各 种 方法 的 Precision 都 有 所 提 
高 。 提 高 最 快 的 是 本 文 方法 TFT-Based, 不 稳定 且 最 慢 
的 是 不 考虑 标签 频率 权重 的 方法 TBased。 男 外 TFT 
Based 相对 于 单纯 考虑 标签 频率 权重 的 FT-Based 方法 
在 推荐 数目 夺 15 时 ， 准 确 率 相 同 ; 当 推 荐 数目 > 15 时 ， 
TFTBased 的 准确 率 比 FT-Based 高 。 而 单纯 考虑 时 间 
权重 的 TT-Based 方法 与 T-Based 的 准确 率 相 近 , 却 明 
显 低 于 TFTBased 和 FT-Based。 这 说 明 , 考虑 标签 频 
率 和 时 间 对 用 户 偏好 的 影响 是 必要 的 , 标注 频率 对 用 
户 偏 好 的 影响 比 标注 时 间 对 用 户 偏 好 的 影响 更 大 。 本 
文 数据 是 按 最 新 优先 的 顺序 获取 的 ， 这 也 说 明 在 没 
有 特殊 情况 下 , 用户 对 某 一 领域 的 兴趣 偏好 在 短期 
内 变化 不 大 , 需要 进一步 关注 和 分 析 拐 点 时 间 对 用 
户 兴趣 偏好 的 影响 。 
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从 图 7 可 知 ,4 种 方法 推荐 的 召回 率 在 K<10 时 也 
均 较 低 , 最 高 的 也 只 有 不 到 40%, 这 可 能 与 用 户 标 注 
标签 的 自由 、 随 意 有 关 。 同 样 一 件 物品 , 不 同 的 人 看 
问题 的 视角 不 同 ,兴趣 点 也 不 同 ， 所 以 对 同一 个 特征 
所 用 词汇 不 同 , 同一 件 物品 所 标注 的 特征 也 不 同 。 因 
此 , 虽然 目标 用 户 与 推荐 用 户 喜 欢 并 描述 了 同一 个 物 
品 ， 由 于 标注 的 标签 大 相 径 庭 ， 因 而 该 物品 得 不 到 推 
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何 对 同一 物品 的 不 同 标签 实现 统一 标注 ， 目 前 还 没有 
很 好 的 方法 。 结 合 图 片 的 物品 语义 特征 的 分 析 也 许 会 
是 一 个 不 错 的 方案 , 但 如 何在 体 量 如 此 大 的 标签 系统 
中 实现 , 还 需要 利用 图 像 技 术 和 大 数据 处 理 技术 进行 
尝试 。 但 图 7 中 的 4 种 方法 的 召回 率 随 着 天 值 的 不 断 
增加 也 呈现 上 升 趋势 。 而 横向 来 看 ， 本 文 提 出 的 方法 
整体 上 较 其 他 三 种 方法 的 召回 率 都 有 更 好 的 表现 。 虽 
然 当 K<15 时 , TFTBased 与 FT-Based 的 召回 率 相同 ， 
变化 趋势 相同 ; 但 当天 >15 时 ，TFTBased 的 召回 率 大 
于 FT-Based, 并 且 差 距 有 不 断 扩大 的 趋势 。 而 
FT-Based 的 召回 率 也 明显 高 于 TT-Based 方 法 , 说 明 标 
注 频 率 对 推荐 召回 率 的 影响 大 于 标注 时 间 对 推荐 召回 
率 的 影响 ,考虑 标注 频繁 度 更 能 提高 用 户 喜 欢 的 物品 
被 推荐 的 概率 。 另 外 , 考虑 标注 时 间 对 用 户 偏好 的 影 
响 对 推荐 结果 的 召回 率 作用 不 明显 。 在 同一 K 值 下 ， 
TT-Based 与 T-Based 的 召回 率 相差 不 大 ， 有 时 
TT-Based 略 高 , 有 时 TBased 略 高 ; 在 不 同 玉 值 下 ,这 
两 种 方法 相差 也 不 大 , 但 总 体 上 , TT-Based 较 TBased 
有 更 好 的 表现 。 
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图 7 不 同 玉 值 下 的 Recall 值 比较 


-Measure 值 是 Precision 和 Reca1 的 综合 ， 从 图 8 
可 看 出 , 随 着 天 值 的 增加 , 4 种 方法 的 F-Measure 值 都 
呈 上 升 趋势 。 其 中 本 文 方法 几乎 为 线性 变化 , 当 天 去 
15 时 ，TFT-Based 与 FT-Based 的 F-Measure 值 变化 线 
重合 ; 当 KK>15 时 , 后 者 的 变化 曲线 低 于 TFTBased， 
即 其 F-Measure 值 小 于 TFT-Based。 而 TT-Based 的 
F-Measure 与 T-Based 相近 ,其 变化 规律 也 与 准确 率 和 
召回 率 的 相似 。 但 TFT-Based 的 F-Measure 值 相 对 于 
其 他 方法 总 体 来 看 最 高 ,FT-Based 次 之 , TT-Based 和 
T-Based 较 小 。 
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综合 来 看 , 虽然 4 种 推荐 方法 在 值 较 小 时 的 准 
确 率 、 召 回 率 和 F-Measure 值 都 较 低 , 但 三 种 指标 值 
都 呈现 随 K 值 增加 而 上 升 的 趋势 ， 量 本文 方法 的 三 种 
指标 的 表现 略 高 于 考虑 标注 频率 对 用 户 偏好 影响 的 推 
荐 方法 ,这 说 明 用 户 标 注 频率 对 用 户 偏好 的 影响 显 
著 。 但 考虑 标注 时 间 对 用 户 偏好 影响 的 推荐 方法 的 表 
现 与 不 考虑 标签 权重 的 影响 的 推荐 方法 相当 , 也 就 是 
说 , 标注 时 间 对 用 户 偏 好 的 影响 很 小 ， 当 然 , 这 也 许 
还 与 获取 的 标签 的 时 间 范 围 有 关 。 因 此 , 考虑 标注 时 
间 周 期 长 短 以 及 时 间 拐 点 对 用 户 偏 好 的 影响 ， 是 需要 
进一步 研究 的 方向 。 另 外 , 除了 时 间 因 素 和 标注 频率 
因素 ,， 是否 还 有 其 他 因素 (如 标注 习惯 、 标 签 获取 方式 ) 
的 影响 ,以 至 于 会 产生 不 同 的 推荐 效果 , 也 有 待 进 一 
步 探索 。 


S 结 语 


本 文 针 对 现 有 基于 标签 的 推荐 研究 中 推荐 精确 度 
不 高 的 问题 , 提出 一 种 结合 商品 标签 本 体 与 标签 权重 
的 推荐 方法 。 在 构建 本 体 时 ,参照 用 户 标注 的 标签 信 
息 和 相关 电子 商务 网 站 关于 商品 检索 条 件 ,构建 基于 
标签 的 商品 本 体 。 在 进行 用 户 偏好 建 模 时 ,同时 考虑 
用 户 使 用 标签 的 频率 与 用 户 兴趣 随时 间 变 化 两 个 权 
重 ， 作 为 标签 对 用 户 重要 度 权 重 ， 也 即 用 户 对 商品 标 
签 的 偏好 值 。 之 后 , 计算 用 户 偏好 商品 标签 与 商品 标 
签 的 相似 度 ， 用 户 将 获得 相似 度 最 高 的 KK 个 商品 推 
荐 。 实 验 结果 表明 ,该 方法 相对 于 利用 标签 进行 协同 
过 滤 推 荐 方法 具有 较 优 的 效果 ,计算 的 时 间 和 空间 的 
复杂 度 更 小 。 社 会 化 电子 商务 中 用 户 自 由 标注 的 商品 
标签 不 仅 可 以 描述 商品 特征 而 且 隐 含 了 用 户 的 偏好 ， 
但 社会 化 标签 在 赋予 用 户 自由 、 自 愿 管 理 自己 感 兴 
的 资源 权利 的 同时 ,也 给 标签 数据 的 处 理 带 来 了 巨大 
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的 挑战 。 用 户 标签 用 词 随意 、 语 义 模糊 ,而 整体 数量 
庞大 , 使 得 在 进行 推荐 时 需要 大 量 工 作 以 规范 化 标签 
语义 。 本 文 使 用 商品 标签 本 体 来 序 化 标签 、 优 化 标签 
语义 , 但 本 体 构建 本 身 是 一 个 复杂 的 工程 , 还 没有 通 
用 的 、 面 对 动态 数据 的 本 体 构 建 方法 , 这 将 是 进一步 
研究 的 方向 。 
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Building Product Recommendation Model Based on Tags 


Tu Haili Tang Xiaobo’ 
(School of Economics and Management, East China University of Technology, Nanchang 330013, China) 
“School of Information Management, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This paper proposes a personalized product recommendation model based on tags in the social 
e-commerce environment. [Methods] First, we calculated users” interests and preferences with the help of tagging 
frequency and time. Then, we constructed a product ontology of the commercial community based on the tag features 
and searching conditions of the e-commerce website. Third, we used the ontology to standardize tag semantics, and to 
classify goods. Fourth, we found clusters containing user preferences, and calculated the similarity between their tags of 
goods and user preference in the cluster. Finally, we identified the goods which were not tagged but preferred by a 
specific user. [Results] We examined the model with information of 200 randomly selected active users of popular 
items from the website of FanDongXi. [Limitations] Only used the frequency and time factor of the users’ tags to 
calculate their interests and preferences. [Conclusions] The proposed method has better performance than the 
collaborative filtering recommendation based methods. 


Keywords: User Tag Product Ontology User Preference Recommendation Model 


Springer Nature 开创 同行 评审 者 慈善 激励 制度 


得 益 于 Springer Nature 旗下 Environmental Earth Sciences 杂志 和 非 营 利 人 道 主义 组 织 “Filter of Hope” 的 一 项 合作 ,同行 评 
审 人 员 开 始 帮 助 发 展 中 国家 的 居民 获得 安全 的 饮用 水 。 自 2017 年 初 该 计划 实施 以 来 , 已 在 利比里亚 、 尼 加 拉 瓜 、 海 地 、 潜 
都 拉 斯 、 俄 罗斯 、 古 巴 和 印度 分 发 了 近 600 个 生活 用 水 过 滤器 。 该 计划 通过 非 营 利 性 合作 伙伴 关系 ,首次 对 同行 评议 人 员 在 
科学 出 版 业 中 所 做 的 基础 性 贡献 进行 奖励 。 

当 评审 人 员 完 成 Environmental Earth Sciences 杂志 的 同行 评审 时 , Springer Nature 将 在 稿件 提交 系统 中 进行 跟踪 ， 以 便 对 
“Filter of Hope” 进 行 相应 的 捐赠 。 评 审 人 员 还 可 以 选择 是 否 希 望 期 刊 在 年 底 特 刊 中 对 其 所 做 的 评审 工作 进行 答谢 。 

“Filter of Hope 一 一 清洁 生活 用 水 ”是 一 个 非 营 利 性 组 织 , 为 40 多 个 国家 的 人 们 提供 服务 。 他 们 的 目标 是 通过 分 发 高 效 
的 、 经 济 实惠 的 生活 用 水 过 滤器 来 改变 世界 。 生 活用 水 过 滤器 能 从 污染 的 水 源 中 去 除 细菌 、 原 生动 物 和 微生物 , 使 其 完全 达 
到 安全 饮用 标准 。“Filter of Hope” 的 工作 取决 于 全 球 各 地 的 分 销 机 构 和 资助 者 , 包括 全 球 各 地 的 基金 会 、 企 业 、 慈 善 家 庭 、 
学 校 、 教 会 、 人 道 主义 团体 和 青年 人 。 

“Filter of Hope” 创 始 人 Bart Smelley 表示 :“ 感 谢 Springer, 世界 各 地 的 人 们 现在 都 可 以 使 用 干净 的 饮用 水 了 。Springer 和 
我 们 之 间 的 这 种 伙伴 关系 正在 改变 世界 。” 

Environmental Earth Sciences 杂志 高 级 编辑 Annett Buettner 说 :“ 每 一 份 同行 评议 都 是 非常 重要 的 ! 这 是 我 们 开始 实施 这 
个 计划 时 想 传达 出 的 信息 。 审 稿 人 是 确保 出 版 物 的 科学 诚信 和 准确 性 的 基础 。 无 数 的 调研 和 市 场 研 究 表 明 , 同行 评审 人 员 不 
希望 期 刊 对 其 进行 货币 激励 。 这 个 计划 允许 我 们 以 小 的 姿态 来 答谢 审 稿 人 ,同时 对 发 展 中 国家 的 家 庭 产生 有 益 的 影响 。 希望 
其 他 期 刊 也 能 考虑 这 种 合作 模式 。” 

环境 地 球 科学 是 一 个 关心 人 类 、 自 然 资 源 、 生 态 系统 、 特 殊 气 候 或 独特 地 理 区 域 , 与 地 球 之 间 相 互 作用 的 , 国际 性 
多 学 科 的 一 本 期 刊 。 其 目的 是 改善 和 修复 地 球 的 环境 , 使 地 球 成 为 生命 栖息 地 。 
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